입술 움직임 정 보 를 이용한 실시간 화자 
클로즈업 시스템 구현 


권 혁 봉 ' ㆍ 장 언동 ㆍ 윤 태 승 '， ㆍ 안 재 형 ''、 


요 약 


본 논 문 에서는 다 수 의 사 람 이 존 재 하 는 입 력 영 상 에서 입술 움직임 정 보 를 이용한 실시간 화자 클로즈업 
(01056-40) 시 스 템 올 구 현 한다. 칼라 (22 카 메 라 를 통해 입 력 되는 동 영 상 에서 화 자 를 검 출 한 후 입술 움직임 
정 보 를 이 용 하 여 다른 한 대의 카 메 라 로 화 자 를 클 로 즈 업 한 다. 구 현 된 시 스 템 은 얼굴색 정 보 와 형태 정 보 를 
이 용 하 여 각 사 람 의 얼굴 및 입술 영 역 을 검 출 한 후, 입술 영역 변 화 량 을 이 용 하 여 화 자 를 검 출 한 다. 검 출 된 
화 자 를 클 로 즈 업 하 기 위하여 212(280/116/20000) 카 메 라 를 사 용 하 였으며, ㅁ 5-232( 시리얼 포 트 를 이용하 
여 카 메 라 를 제 어 한다. 실 험 결과 3 인 이상의 입력 동 영 상 에서 정확하게 화 자 를 검 출 할 수 있다. 


#*681 ' ㅁ 106 90686 (01056-020 55756600 46108 7116 
110 태 001100 14[0000800108 


『16801<-80 ㅇ 179 \00', 니 0-[ ㅁ 0009 아 1809, 786-54119 407 800 486-1+60179 170 


28618667 


+++7 


17 19 00066, \6 1200160160 8 1681 0016 50686667 이 056-40 5756601 45108 110 1001070 10101008000 10002 
10046 1248868 118\10@ 50016 2000!6. 1667 0666000@ 8 50681667 00100 100 바 200110@ 010041656 410048@43 006 0010 
(061) 6800678, 0406 00167 08100 ㅠ 8 이 0965 40 416 90686 107 45108 110 01100 10[0770080004. 1116 14200100060160 
69610 0666065 8 1306 800 110 8168 0【 08001 206750 ㅁ 105 1700805 0 8 100181 0010 300 8 100001001061081 
10107727080070, 800 타 60 11008 046 8 50686 07 49108 110 8768 7828407. 6 2112(0220/171620000) 6800808 16 
14560 10 00067 10 이 0056 40 016 06[60660 506816@6 300 1 15 0076 ㅁ 01160 105 표 5-232(; 56281 00 파 . <0096006047, 
\6 080 63007 0 하 60 4 50691667 10 100 바 210108 파 0604065 100140108 20076 04180 40766 26006. 


1. 서 론 


사 람 의 얼 굴 은 다른 사 람 들 과 구 분 될 수 있는 각 
각 의 특 징 을 가지고 있으며 얼 굴 에 나타나는 표 정 은 
언 어 나 문 자 만으로는 상 세 하 게 표현할 수 없는 또 
다른 의 미 적 인 정 보 를 제 공 한다. 얼 굴 에 의해 전 달 되 
는 정 보 는 일 반 적 으로 여러 사 람 들 로부터 각 개 인 을 
식 별 할 수 있는 개 인 의 성별, 나이 등 의 정 보 와 정신 
이 논 문 은 2001 학 년도 김 포 대 학 의 연구비 지 원 에 의하여 
연 구 되었음 
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적 상 태 와 감 정 까 지도 반영된 정 보 를 제 공 한 다. 또한 
얼굴 표 정 의 변 화 는 언 어 적 전달 방 법 으 로 는 표현할 
수 없는 많은 의 사 를 표현할 수 있으므로 더 원활한 
의 사 소 통 이 이루어질 수 있게 한다. 이러한 이유 때 
문 에 컴퓨터 비전 분 야 에서는 얼 굴 을 인 식 하고 얼굴 
의 각 부 분 을 검 출 하는 것을 매우 관심 있게 다루고 
있다. 최근 정지 영 상 이나 동 영 상 으로부터 열 굴 을 자 
동 적 으로 인 식 하는 얼굴 영상 처리 기 술 은 패턴 인 
식 , 컴퓨터 비전, 신 경 망 과 같은 다양한 분 야 에서 활 
발 히 연 구 되고 있으며, 상업적, 법 적 으 로 수많은 응 
용 분 야 를 가지고 있으므로 얼굴 영상 처리 기 술 과 
관련된 공 학 적 인 측 면 의 연 구 가 선 행 되 어야 한 다 [1]. 

인 식 과 관련된 연 구 들은 얼굴 영역 추 출 이 선 행 된 
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상 태 에 서 수 행 되는 경 우 가 많았다. 즉 , 입력 영 상 이 
항상 얼 굴 만을 포 함 한 다고 가 정 하 거나 또는 단일 색 
조의 배 갱 만이 존 재 한다고 가 정 하 게 되므로, 얼굴 영 
역 의 추 출 에 어 려 움 이 없었다. 대 부 분 의 연 구 들은 단 
순한 배 경 이나 영 상 내의 얼 굴 의 크 기 를 머 리 에 서 어 
깨 사 이 의 크 기 로 고 정 시키는 방 법 을 쓰고 있 다 [2- 
4]. 06107085 와 (04107 등 은 입술 모양 변 화 를 검 출 하 
여 립 - 리 딩 (10-1630108) 에 적 용 하 기 위한 적당한 입 
술 영 상 의 획득 문 제 를 해 결 하 기 위해 각 사 람 의 머 
리에 카 메 라 가 달린 헬 멜 써서 입 술 의 위 치 와 크기 
를 일 정 하게 유 지 하도록 조 절 하 였 다 [5]. 그러나 실용 
화 룰 목 표 로 하는 얼굴 인식 시 스 템 을 개발할 때, 영 
상 내의 얼굴 영 역 의 추 출 은 그리 간단한 문 제 가 아 
니다. 배경, 얼 굴 과 카 메 라 의 거리, 카메라 시야 내에 
서 의 얼 굴 의 위치 등 을 시 스 템 의 가 정 에 부 합 되도록 
조 정 한 다는 것은 매우 어 렵 기 때 문 이 다 [6]. 특히 화 
면 내에 여러 사 람 이 있을 경우 특 정 인 에 대해 처리 
하는 것은 더욱 어려운 일 이다. 

실제 시 스 템 에서 각 사 람 의 얼굴 영 역 의 크 기 와 
위 치 가 항상 적절한 크 기 로 유 지 된 다면 얼굴 추출 
및 인식 성 능 은 매우 향 상 될 것이므로 본 논 문 에서는 
얼굴 영 역 의 크 기 와 위 치 를 적절한 크 기 로 유 지 하여 
인식 및 립 - 라 딩 시 스 템 의 성 능 을 향 상 시키기 위한 
시 스 템 올 제 안 하 였다. 즉 , 두 대의 칼라 01 카메라 
를 이 용 하 여 기준 카 메 라 는 전체적인 배경 화 면 올 
입 력 받고, 212 카 메 라 를 줌 카 메 라 로 사 용 하여 배경 
화 면 에 나타나는 여러 사람들 중에서 현재 말하고 
있는 사 람 의 얼 굴 을 클로즈업 할 수 있는 실시간 화 
자 클로즈업 시 스 템 을 구 현 하였다. 

본 논 문 에서 제안한 화자 검출 과 정 을 살펴보면, 
우선 기준 카 메 라 로 입 력 되는 화면 내 에 서 여러 사람 
들을 검 출 하기 위하여 각 사 람 의 얼굴 영 역 을 먼저 
검 출 하 였다. 얼굴 영역 검출 방 법 은 현재 많이 사용 
되고 있는 색상 정 보 를 이 용 하 여 얼 굴 색 을 분 류 하 고 
모양 정 보 를 이 용 하 여 얼굴 영 역 을 검 출 하는 방 법 을 
사 용 한 다 [7]. 검 출 된 얼굴 영 역 에서 입술 영 역 을 분 
리 하 여 입술 움 직 임 이 가장 큰 사 람 을 화 자 로 판 정 한 
후 줌 카 메 라 를 화 자 로 이 동 시 켜 확 대 된 얼굴 영 역 올 
출 력 시 키 도록 하였다. 따라서 확 대 된 얼굴 영 역 을 통 
해 얼굴 인식 및 립 - 리 딩 시 스 템 을 구 현 하 는 것이 
가 능 해 질 것이다. 

본 논 문 의 구 성 은 다 음 과 같다. 2 장 에서는 제 안 된 


얼굴 영역 검출 알 고 리 즘 을 알아보고, 3 장 에서는 입 
술 움직임 검출 과 정 율 제 안 한 다 . 4 장 에서는 화자 인 
식 기 법과 줌 카 메 라 를 제 어 하여 검 출 된 화 자 로 이동 
하는 알 고 리 즘 을 알 아 본 다. 5 장 에서는 실험 결과 및 
검 토 를 하고 6 장 에서 결 론 을 맺는다, 


2. 얼굴 영역 검출 


기준 카 메 라 로부터 입 력 되 는 동 영 상 에서 실시간 
으로 화 자 를 클 로 즈 업 하 기 위하여 입 력 되 는 동영상 
에 존 재 하 는 다 수 의 얼굴 영역 검 출 이 선 행 되 어야 
한다. 본 논 문 에서는 실시간 처 리 를 위하여 특 징 점 
추 출 이나 통 계 학 적인 복잡한 알 고 리 즘 보 다는 색상 
정 보 를 이용한 신속한 알 고 리 즘 을 적 용 하 였 다 [7]. 

001 카 메 라 는 조 명 에 민감한 특 성 올 나 타 내 므로 
조 명 의 영 향 을 최 소 화 하 기 위하여 영 상 의 600 입력 
으로부터 0 모 델 로 변 환 한 후에 휘도 성분 를 
제 거 하 고 와 성 분 만 을 이 용 하 여 피부색 영 역 들 
을 분 리 하 였다. 전처리 과 정 으로서 잡음 제 거 를 위해 
형 태 학적 필 터 링 을 하였고, 수 평 투 영 을 하여 얼굴 영 
역 에 함께 나타나는 목 부 분 을 줄였다. 그 후 레이블 
링 을 통해 피부색 영 역 을 분 리 한 후 모양 제 한 을 하 
여 각 사 람 의 얼굴 영 역 만을 검 출 하였다. 그림 1 은 
얼굴 영역 검출 알 고 리 즘 의 과 정 이다. 


동영상 입력 


~060: 컬 러 영 역 으 로 변환 


그림 1. 얼굴 영역 검출 알고리즘 


512 멀 디 미 디 어 화 회 논문지 제 4 권 제 6 초 (2001. 12) 


입력 208 영 상 을 (6 칼 라 모 델 로 변환 후에 
휘 도 성분 는 버리고 (와 ( ㅠ 성 분 만을 가지고 
피부색 분 할 을 수 행 한다. 식 (1) 에 나타난 와 ㅠㅜ 
의 임 계 값 은 (161 등 이 제안한 모 텔 이며, 임 의 의 
표본 영 상 들 로 부터 얼굴 영 역 의 피부색 화 소 들만 
을 취하여 얼굴색 칼라 히 스 토 그 램 을 이 용 하 여 계 
산 되 었 다 [81. 

18(77 ㅋ 6 , ㅋ 132)( (133 0 , ㅋ 171) 


2(~,3)= 
0 (20207220256 


(01) 


82(×5) 는 피 부 색 으 로 분 할 된 이진 영 상 이다. 와 
(2 성 분 이 임 계 값 내에 있으면 피 부 색 으로 간 주 하여 
1 로 설 정 하 고 다른 부 분 은 배 경 영 상 으로 간 주 하 여 
0 으 로 이 치 화 한다. 

(와 (> 성 분 의 임 계 값 에 의한 피부색 분 할 에 의 
해 획 득 되어진 이진 영 상 에는 많은 잡음 요 소 가 포함 
되어 있다. 이러한 잡 음 은 다음 과 정 인 레 이 블 링 의 
연 산 량 에 지대한 영 향 을 준다. 그러므로 형 태 학적 필 
터 링 을 통하여 작은 잡음 요 소 를 제 거 하 고 돌출 부분 
을 제 거 함으로써 영 상 을 단 순 화 서 킬 필 요 가 있다. 형 
태 학 적 필터링 기법 중 제거 연 산 은 수축 연산 후에 
확장 연 산 을 하는 것으로 배 경 에 작게 고 립 된 피부색 
잡 음 을 제 거 할 수 있다. 채움 연 산 은 확장 연산 후에 
수축 연 산 을 수 행 하는 것으로 피부색 내의 고 립 잡 음 
을 제 거 하 는 효 과 를 가질 수 있다. 본 논 문 에서는 제 


거 연산 후 채움 연 산 을 수 행 하였다. 이러한 형 태 학 . 


적 필 터 링 을 통 과 한 영 상 은 피 부 색 으로 나타난 큰 
물 체 들 로 분 리 되어 있다. 이때 수평 방향 투 영 을 수 
행 함 으로 목이 많이 노 출 된 영 상 에서 목 부 분 의 영역 
을 제 거 하여 얼굴 영 역 을 좀 더 정확하게 분 리 해 낼 
수 있다. 

레 이 블 링 은 연 결 되어 있는 모든 화 소 에 같은 레이 
블 을 붙이는 처 리 이다. 이러한 레 이 블 링 을 통하여 영 
상 내 다 수 의 얼굴 영 역 을 서로 분 리 하여 식 별 해 낼 
수 있다. 레 이 블 링 과 정 을 통해 분 리 된 영 역 들 은 
굴 뿐만 아니라 노 출 된 몸 의 다른 부 분 이나 비슷한 
색 깔 의 사 물 들을 포 함 하고 있다. 그러므로 얼 굴 부분 
올 검 출 하기 위해서는 적절한 모 양 제 한이 필 요 하 다. 
이를 위해 영 역 의 면 적 과 가 로 와 세 로 의 비 를 제 한 하 
여 얼굴 영 역 올 검 출 하였다. 그림 2 는 검 출 된 얼굴 
영 역 을 나타낸다. 


(8) 입력 영상 06) 얼굴 영역 검출 영상 
그림 2. 얼굴 영역 검출 


3. 실시간 입술 움직임 정보 검출 


일 반 적 으로 실시간 영상 처 리 에 관련된 알고리즘 
들은 실 시 간 으로 입 력 되는 동 영 상 의 각 프 레 임 에서 
특 징 값 들 을 추 출 하여 연 속 된 프레임 사 이 의 특 징 값 
변화 패 턴 을 분 석 하여 영상 신 호 를 처 리 하게 된다. 
이 때 에는 화 소 값 에 기반한 방 법 과 히 스 토 그 램 에 기 
반한 방법 등 이 주로 사용되고 있다. 화 소 값 에 기반 
한 방 법 들은 물 체 에 관한 형태, 위치 등 의 상 대 적 으 
로 많은 정 보 를 얻 울 수 있으나 잡 음 이나 카메라 움 
직임, 조명 변화 등에 매우 민 감 하게 반 응 하는 단점 
이 있다. 히 스 토 그 램 에 기반한 방 법 들은 화 소 값 기반 
방 법 에 비해 카 메 라 와 물 체 의 음 직 임 에 비교적 덜 
민 감 하나 물 체 의 형태, 위치, 이동 방향 등 의 공간적 
인 정 보 를 잃게 되는 단 점 이 있다. 화 자 를 식 별 하기 
위해 입 술 과 같이 작은 부 분 의 움 직 임 을 검 출 할 때에 
는 움직임 변 화 를 감 지 하면서도 고 개 를 돌 린 다 든지 
화 자 가 이 동 한 다 든지 하는 문 제 에 대한 적 응 성 을 가 
져야 한다. | 

본 논 문 에서는 허 스 토 그 램 방 법 에 기 반 하면서도 
위 치 정 보 를 잃지 않는 방 법 을 제 안 한 다. 검 출 된 얼굴 
영 역 에서 다시 적절한 입술 영 역 을 설 정 한 후 얼굴색 
으로 분 리 된 이진 영 상 에서 그 영 역 을 추 적 하면서 
움 직 임 에 따른 입술 영 역 의 화 소 면 적 변 화 를 측 정 하 
여 움직임 정 보 를 추 출 하였다. 


3.1 입술 영역 검출 


사 람 의 얼 굴 의 형 태 학 적 인 구 조 를 살펴보면 정면 
얼 굴 의 대 부 분 은 가로 세 로 의 비가 약 1:1.48 정 도 의 
비 율 을 가지고 있는 타 원 형 이며 입술 영 역 은 전체 
얼굴 면 적 의 중심점 아래 부 분 에 위 치 한 다는 것을 
알 수 있 다 [9]. 따라서, 이러한 형 태 학 적 인 특 징 을 이 
용하여 얼굴 면 적 의 중심점 아래 부 분 을 입술 영 역 으 
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로 가 정 하였다. 영상 내에 존 재 하는 여러 사 람 들 의 
입술 영 역 을 설 정 하기 위해 검 출 된 각 사 람 의 얼굴 
영 역 의 중 심 점 올 식 (2) 를 이용해 구 하 였다. :(×※, 70) 
는 얼굴 영 역 의 중심 좌 표 이 며 × 와 는 각각 ※, 의 
좌 표 의 위 치 이 며 , & 는 얼굴 영 역 의 면 적 이다. 


에. 
~ 00 자 3 개 2 (2) 


구 해 진 중 심 점 을 기 준 으로 아래 부 분 에 마 스 크 롤 
설 정 하였으며 설정된 마 스 크 의 안 쪽 을 입술 영 역 으 
로 결 정 하였다. 설정된 정 사 각 형 의 마 스 크 는 항상 얼 
굴 영역 안에 위 치 하 여야 하며 입술 영 역 이 포 함 되어 
있 어 야 한다. 만약 정 사 각 형 의 크 기 가 얼굴 영역 바깥 
까지 포 함 한 다면 입술 움직임 크 기 의 변 화 에 따른 
입술 영 역 의 변화 화소 수 를 정확히 검 출 할 수 없다. 
본 논 문 에서 설 정 한 마 스 크 의 크 기 는 사람 얼 굴 의 
형 태 학 적인 분석 결 과 와 실 험 을 통하여 얼굴 면 적 의 
크 기 롤 700~1500 화 소 로 정 했 을 때 19×19 가 가장 
적 합 하 였다. 각 사 람 의 입술 영역 마 스 크 에 서 입술 
안쪽 영 역 은 얼굴색 영 역 과 비 교 하여 와 (< 성분 
이 다르게 나 타 나 므로 얼 굴 색 으로 인 식 되지 않는 부 
분이 발 생 한 다 . 

화 자 가 말 을 하게 되면 입술 안 쪽 의 음 영 과 치아 
에 의해 설정된 마스크 내의 영 역 에서 얼 굴 색 이 아닌 
화 소 의 수가 변 화 하게 된다. 따라서, 피 부 색 으로 분 
할 된 이진 영 상 의 입술 영역 마스크 내 에 서 는 0 의 
면 적 이 변 화 하 게 된다. 

본 논 문 에서는 입술 영역 마스크 내의 0 의 면적 
변화 특 성 을 이 용 하 여 입술 움직임 정 보 를 획 득 하 였 
다. 그림 3 은 제 안 된 알 고 리 즘 을 적용한 결 과 를 나타 
낸다. 그림 3 의 (3) 와 (6) 의 입술 영역 마스크 내 에 서 
변 화 가 발 생 하면 그림 3 의 (6) 와 (0) 의 이진 영상 내 
에서 입술 면적 변 화 가 감 지 된다. 그럼 3 의 (6) 와 (1) 
는 두 이 진 영 상의 입술 영역 마스크 내 에 서 수평 투 
영 을 했을 때 얼 굴 색 의 변 화 량 을 나타낸 것이다. 각 
프 레 임 에서 얼 굴 색 이 아닌 화 소 의 면적 즉 0 의 면적 
을 계 산 한 후 두 프레임 간의 입술 영역 면적 차 를 
이용해 화 자 를 검 출 할 수가 있다. 


3.2 입술 움직임 정보 검출 


실시간 영상 분석 및 처 리 를 위해 추 출 된 마스크 
내의 입술 움직임 정보 비 교 는 매 15 프레임 간 격 으 
로 수 행 하 였다. 또한 각 프 레 임 마 다 얼굴 영 역 의 좌 


(0) 얼굴색 분할 이 진 영 상 ㅣ (0) 얼굴색 분할 이: 


ㅜ 05 


로 66 즈 86208 5 세 엔 오 긴 고 


ㅜ 95 
금 운 울 로 툰 훈 로 코 르 모젠 36 오 논어 
= 


글 웅 줄 릭 


16 8 101 21610272227 


214 661010211222 0 ㅁ 2 


축 : 입 술 영 역 의 ㅠ 좌표, 


(6) 입술 영역 수평 투영 
그 래 프 1 


※ 축 : 입 술 영 역 의 1 의 수 


(0) 입술 영역 수평 투영 
그 래 프 2 


그림 3. 입술 영역 검출 


표 및 크 기 가 변 화 할 수 있으므로 비교 프 레 임 마다 
얼굴 영 역 을 다시 검 출 하여 중심 좌 표 를 계 산 하고 
입술 영역 마 스 크 를 재 설 정 하였다. 그 후 각 사 람 별 
로 두 비교 프 레 임 간의 입술 움직임 정 보 의 변 화 량 을 
검 출 하기 위해 식 (3) 를 이 용 하 였다. 


= 10. 8 


= 엄 험 자 
~ 이 개 7-16 ^, 22 | (3) 


1=1 7= 


66 과 5 ㅠ -1 은 각 프 레 임 에서 입술 영역 마 스 크 의 0 
의 면 적 이며, 6, 은 입술 움직임 정 보 를 나타내는 두 
프 레 임 간의 마스크 내의 면적 변 화 량 이다. 이때, 입 
술 움직임 정보 6, 의 값 은 화자 후 보 의 입 술 이 움 직 이 
지 않더라도 조명 변화 등에 의한 화소 변 화 로 인하 
여 미세한 변 화 를 계속 일으켜 화자 결 정 에 오 류 를 
일으킬 수 있다. 실제로 실 험 해 본 결과 영상 내의 
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사 람 이 말 을 하지 않았는데도 2~4 화 소 정 도 의 변화 
량이 검 출 되 었다. 이러한 오 류 를 방 지 하기 위하여 임 
계 값 16 을 5 로 정하여 6, 의 값 이 임 계 값 미 만 의 변화 
를 일으켰을 때는 변 화 가 없는 것으로 처 리 하였다. 


4. 실시간 화자 클로즈업 시스템 구성 


_ 4.1 실시간 화자 클로즈업 시스템 


본 논 문 에서 구 현 한 화자 클로즈업 시 스 템 의 블럭 
도는 그림 4 와 같다. 그림 4 에 서 결정된 화 자 의 얼굴 
영역 중 심 점 으로 줌 카 메 라 의 초 점 을 변 경 하여 화자 
를 클 로 즈 업 하였으며, 이때 기준 카 메 라 는 전 체 의 영 
상 을 그대로 보 존 하여 계 속 적 으로 입술 움직임 정보 
량 의 변 화 를 감 시 한다. 만약 현재 클로즈업 된 화자 
의 입술 움직임 정 보 량 보다 더 큰 정 보 량 을 갖는 얼 
굴 영 역 이 검 출 된다면 그 사 람 으로 줌 카 메 라 의 초점 
을 이 동 시 켜 화 면 을 전 환 한다. 따라서 제 안 된 화자 
클로즈업 시 스 템 은 전체적인 영 상 과 클로즈업 된 두 
동 영 상 을 제 공 하게 한다. 


얼 글 영 역 검출 
(얼굴색 정보) 


화 자 검출 
(입술 움직임 정보} 


『7 ㅜ 2 카메라 제어 
085-23206) 


그림 4. 화자 클로즈업 시스템 


4.2 화자 결정 


입술 움직임 정 보 를 이 용 하 여 화 자 를 결 정 하 는 순 
서 도 는 그림 5 와 같다. 화자 선 정 을 위하여 추 출 된 
각 화자 후 보 들 의 입술 움직임 변 화 량 들 을 연 속 적 으 
로 비 교 하였으며, 실 험 을 통하여 임 계 치 [을 5 로 설 
정하여 최대 변화량 횟 수 가 5 가 되는 후 보 를 화 자 라 
고 결 정 하였다. 이렇게 하므로 순 간 적 으로 변 화 량 이 
커지는 사 랍 을 화 자 로 인 식 하 는 것을 방 지 하였다. 일 
단 화 자 가 선 정 되면 선 정 된 사 람 을 제외한 모든 화자 
후 보 들 의 최대 변화량 발생 횟 수 를 0 으 로 리셋 시키 


그림 5. 화자 검출 순서도 


고 선 정 된 화 자 에게는 1 을 부 여 하여 화자 후 보 들 의 
일시적인 최대 입술 움직임 정 보 의 변 화 에도 지속적 
으로 현 재 의 화 자 가 선 정 되도록 하였다. 또한 화 자 를 
교 체 하기 위해서는 입술 움직임 변 화 량 을 지 속 적 으 
로 관 찰 하면서 5 회 이상 최대 변 화 량 을 나타내는 화 
자 에 게 로 줌 카 메 라 가 이 동 하 게 하였다. 


4.3 『727 카메라 제어 


본 논 문 에서 구 현 한 화자 클로즈업 시 스 템 은 줌 
카 메 라 를 이 동 시 키기 위하여 320×240 크 기 의 기준 
영 상 의 중 심 점 을 0 으 로 하는 2 차 원 좌 표 계 를 기 준 으 
로 ^4(×,。,) 지 점 에 위 치 하 는 화 자 는 ※× 축 으로 ×,, 
축 으 로 ×, 화소 떨어진 지 점 에 위 치 한 다고 가 정 한 
다. 따라서 ㅅ 지 점 으로 줌 카 메 라 의 중 심 을 이 동 시 키 
기 위하여 ※×, 좌 표 의 화소 거 리 를 카메라 구동 시 
간 단 위 로 변 환 하 여야 한다. 실험 결과 카 메 라 의 이 
동 속 도 는 15008/01%61 로 계 산 되 었다. 줌 카 메 라 가 화 
자 스로 이 동 하 였다면, 다음 이 동 의 기 준 점 은 좌표계 
의 중심점 0(0, 0) 에 서 화자 ㅅ 의 중심점 ^0×※,, *0/ 으 
로 변 경 된 다. 따라서, 화 자 가 2(※,, ,) 위 치 의 사람 
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으로 발 경우 카 메 라 의 이동 거리는 식 (4) 과 같이 
계 산 된다. 


조 = 20-20 
= 72- (4) 


식 (4) 에 서 좌 우 축의 이동 방 향 은 ※×) 의 부 호 에 의 
해 결 정 된 다. ×%( 의 값 이 양 수 이면 기 준 점 의 좌 측 으 
로, 음 수 이면 우 측 으로 이 동 한다. 상 하 축 의 이동 방 
향 은 ; 의 부 호 에 의해 결 정 된 다. 의 값 이 양 수 이 
면 상 향 으로, 옴 수 이 면 하 향 으로 이 동 한다. 이때, 고 
려 해야 할 점 은 현재 화 자 의 움 직 임 이다. 화 자 는 말 
하면서 머 리 를 움직일 수도 있고 또 위 치 를 변경해 
가면서 말 을 할 수도 있을 것이다. 그러므로 현재 화 
자의 중심점 위 치 가 임계 화 소 값 이 하 만큼 움직인다 
면 위치 변 화 가 없는 것으로 간 주 하여 줌 카 메 라 가 
머 리 의 움 직 임 에 민 감 하게 반 옹 하여 움직이는 것을 
방 지 했으며, 중심점 위 치 가 임계 화 소 값 이상 움직일 
경우 줌 카 메 라 는 화 자 를 추 적 하도록 설 계 하였다. 또 
줌 카 메 라 의 이동 중에 화 자 가 바뀌면 다 이 동 하 지 
못하고 다른 화 자 로 이동해 버리기 때문에 이동 거리 
오 차 가 발 생 한 다. 이를 방 지 하기 위해 플 래 그 를 두어 
이동 중에는 다른 이동 명 령 을 내리지 못하게 하였다. 


5. 실험 결과 및 검토 


연 구 를 위해 사용한 60072466@+ 는 004 가 ^01100(01 
(602) 이 며 \1000\5 98 환 경 하 에서 16081 6++ 6.0 
으로 프로그래밍 하였다. 사 용 된 두 대의 카 메 라 는 
80402 18900 을 기준 카 메 라 로 사 용 하였으며, 줌 
카 메 라 는 12 기 능 이 있는 카 메 라 를 사 용 하 였다. 
줌 카 메 라 와 20 와 의 통 신 은 5-232( 포 트 를 이용 
하였으며 카메라 제 어 는 212 카메라 리 시 버 를 통 하 
여 이루어진다. 또한 두 대의 카 메 라 로부터 영상 신 
호 를 입 력 받기 위하여 4 채 널 1\ 브 카드 *68 ㅁ -1000 
을 사 용 하 여 초당 30 프 레 임 의 동 영 상 을 320×240 
크 기 로 획 득 하였다. 

얼굴 영 역 의 검출 시 간 은 배 경 화면 내에 세 사람 
이 존재할 때 초당 6.25 프 레 임 의 처리 성 능 을 나 타 냈 
다. 그러므로 화 자 를 검 출 해 낸 후 다시 실 시 간 으 로 
화 자 를 인 식 하는 처 리 를 한다거나 립 - 리 딩 처 리 를 
할 여유 시 간 을 획 득 할 수 있었다. 

두 입력 영 상 의 변 화 량 을 검 출 하는 가장 간단한 


방법 중의 하 나 는 두 영 상 의 화 소 값 과 화 소 값 을 비교 
하는 방 법 이 다 [10]. 두 영 상 의 화 소 값 차 를 이 용 하 여 
만들어진 차 영 상 을 통하여 물 체 의 움 직 임 을 검 출 해 
낼 수 있다. 그러나 이러한 방 법 은 입 술 의 움 직 임 올 
검 출 해 내는 데 단 점 을 보이고 있다. 본 논 문 에서 제 
안된 입술 움직임 검출 알 고 리 즘 의 특성 비 교 를 위하 
여 화 소 값 차 방 법 과 입술 움직임 걸 줄 에 대한 비교 
실 험 을 하였다. 그림 6 (3) 와 (6) 의 두 영 상 에서 화자 
의 입술 영 역 의 정보 변화량 비 교 가 표 1 에 나타나 
있다. 편의상 화자 후 보 는 좌 측 에서부터 화 자 ( ㅅ ), 화 
자 (2), 화 자 (0) 로 간 주 한 다. 

화 자 ( ㅅ ) 와 화 자 (2) 는 입술 움 직 임 이 있지만 화자 
(0) 는 단지 고 개 만 돌리는 상 태 이다. 표 1 에 서 볼 수 
있는 것과 같이 화 자 ( ㅅ ) 와 화 자 (2) 처 럼 화 자 가 정면 
을 바 라 보 면 서 말 을 할 때에는 화 소 값 차 를 이용한 
방 법 과 제 안 된 알고리즘 모두 입술 움 직 임 을 검 출 할 
수 있었다. 그러나 화 자 (<) 처 럼 말하지 않 으 면 서 단 
지 얼 굴 을 좌 우 로 돌 리 거나 숙 이 는 경 우 와 같은 움직 
임이 발생할 때 화 소 값 차 를 이용한 방 법 은 입술 움 
직 임 이 있는 것으로 판 정 하 지만, 제 안 된 방 법 은 입술 
움 직 임 이 없는 것으로 판 정 하였다. 즉 제 안 된 알 고 리 
즘 은 얼 굴 이 움 직 여 도 입술 움직임 정 보 를 정확하게 
검 출 할 수 있었다. 

그림 7 은 화자 결정 과 정 의 한 예 이 다. 동 영 상 에서 
15 프레임 간 격 으로 최대 입술 움직임 정 보 를 계 산 하 
여 화 자 가 결 정 되는 과 정 과 화자 교체 과 정 을 그래프 
로 나타냈다. 1201 프레임 동 안 의 최대 입술 움직임 


06) 화자 (8) 가 말할 때 


(3) 화자 (&) 가 말할 때 


그림 6. 세 명의 화자 후보 영상 


표 1. 입술 움직임 정보 변화량 비교 ( 단 위 : 화 소수) 
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그림 7 화 자 - 결 정 과정 
정 보 를 계 산 하 여 그 래 프 로 나타냈다. 화 자 로 결정된 
사 람 의 최대 입술 움직임 정 보 가 크게 변 화 하고 있음 
을 알 수 있다. 화자 교 체 의 경우 최대 입술 움직임 
정 보 가 5 회 이상 축 적 되 는 화자 후 보 가 다음 화 자 로 
결 정 됨 올 알 수 있다. 첫 번째 화 자 가 결정된 프레임 
은 프로그램 실행 후 136 번 째 프 레 임 부 터 이 며 , 약 45 
초가 소 요 되었다. 또한, 화 자 가 교 체 되어 클 로 즈 업 되 
는 시 간 은 45 초 이내로 이 루 어 졌 으며, 이와 같이 화 
자 검출 및 카메라 위치 이 동 의 오 류 를 최 소 화 하기 
위한 시 간 을 실 험 을 통하여 확 인 하였다. 

그림 8 은 구 현 된 시 스 템 의 시뮬레이터 화 면 이다. 
왼 쪽 에 전체 화 면 이 있고 오 른 쪽 에 화 자 가 검 출 되 어 
줌 카 메 라 로 클 로 즈 업 된 상 태 이 다. 아래 부 분 은 입술 
움직임 정보 그리고 얼굴 영 역 과 입술 영 역 이 검 출 된 
영 상 이다. 


빼 | 1.19207.18 디 1 이. 디디 으러 오그 


이시니 구이 당 닌 박 이 석 나 어니 베 새 테 4 쳐 8908 이 바 디 에 치이 아기 


그림 8 화자 클로즈업 시뮬레이터 화면 


6. 결 론 


본 논 문 에서는 다 수 의 사 람 이 존 재 하 는 입 력 영상 
에서 얼 굴 영 역 올 먼저 검 출 한 후 입술 움직임 정 보 를 


이용한 실시간 화자 클로즈업 시 스 템 을 구 현 하였다. 
실시간 처 리 를 위하여 얼굴 영역 검출 기 법 으로 
76 색 상 정 보 와 형태 정 보 를 이 용 하 였고, 사 람 의 
움 직 임 으로 인한 화자 인식 오 류 를 방 지 하 기 위하여 
단순히 두 영 상 의 화 소 값 차 를 이 용 하 지 않고 허 스 토 
그램 기반 기 법 을 보 완 하여 입 술 의 움직임 정 보 를 
검 출 하 였다. 실험 결과 검 출 된 입술 움직임 정 보 를 
이 용 하 여 다 수 의 사 람 이 존 재 하는 입 력 영 상 에서 화 
자를 정확히 검 출 할 수 있었다. 또한 212 카 메 라 를 
제 어 하여 영 상 처 리 에 적절한 이 미 지 를 능 동 적 으로 
획 득 할 수 있었다. 

본 논 문 에서 제안한 시 스 템 은 영 상 회 의 , 얼 굴 인식, 
립 - 리 딩 , 무 인 감시 시 스 템 에 적 용 할 수 있다. 
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